ارائه یک روش جدید بازیابی اطلاعات مناسب برای متون حاصل از بازشناسی گفتار

نویسندگان

چکیده مقاله:

In this article a pre-processing method is introduced which is applicable in speech recognized texts retrieval task. We have a text corpus, t generated from a speech recognition system and a query as inputs,  to search queries in these documents and find relevant documents. A basic problem in a typical speech recognized text is some error percentage in recognition. This, results erroneously assigning to irrelevant documents.The idea of this proposed method, is to detect error-prone terms and to find similar words for each term. A parameter is defined which calculates the probability for occurring errors in the error-prone words. To recognize similar words for each specific term, based on a criterion called average detection rate (ADR) and levenshtein distance criterion, some candidates are chosen as the initial similar words set. And then, a conversion probability is defined based on the conversion rate (CR) and the noisy channel model (NCM) and the words with higher probability based on a threshold level are selected as the final similar words. In the retrieval process, these words are considered in the search step in addition to the base word.  Implementation result shows a significant improvement up to 30% of F-measure in information retrieval method with consideration of this pre-processing.

برای دانلود باید عضویت طلایی داشته باشید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

ارائه روشی جدید برای شاخص‌گذاری خودکار و استخراج کلمات کلیدی برای بازیابی اطلاعات و خوشه‌بندی متون

Persian words in writing with a diverse and cover all modes of grammatical words with the recruitment of a series of specific rules because it is impossible to extract keywords automatically from Persian texts difficult and complex. This thesis has attempted to use linguistic information and thesaurus, keywords Mnatry be provided. Using the symbol system is structured network can be keywords, i...

متن کامل

ارائه روشی جدید برای شاخص گذاری خودکار و استخراج کلمات کلیدی برای بازیابی اطلاعات و خوشه بندی متون

در زبان فارسی کلمات دارای صورت های نگارشی متنوعی هستند و پوشش کلیه حالات دستوری کلمات با به کارگیری یک سری قواعد معین ناممکن است به همین دلیل استخراج کلمات کلیدی به طور خودکار از متون فارسی دشوار و پیچیده است. در این مقاله سعی شده است با استفاده از اطلاعات زبان شناختی و اصطلاح نامه ، کلمات کلیدی بامعناتری ارائه شود. با استفاده از اصطلاح نامه که از نظامی ساختارمند برخوردار است می توان شبکه کلمات...

متن کامل

طراحی یک روش آموزش ناموازی جدید برای تبدیل گفتار با عملکردی بهتر از آموزش موازی

Introduction: The art of voice mimicking by computers, has with the computer have been one of the most challenging topics of speech processing in recent years. The system of voice conversion has two sides. In one side, the speaker is the source that his or her voice has been changed for mimicking the target speaker’s voice (which is on the other side). Two methods of p...

متن کامل

روش های اتصال گرای جدید بر گرفته از سامانه ادراک گفتار انسان به منظور بهبود بازشناسی گفتار ماشینی

بازشناسی خودکار گفتار در شرایط عدم تطابق دادگان آموزش و آزمون، یکی از چالش های مهم در این مورد است. به منظور کاهش هر چه بیشتر این عدم تطابق، روش های مرسوم، سعی در بهسازی گفتار یا تطابق مدل آماری دارند. در این زمینه از جمله روش های دیگر می توان به آموزش مدل در شرایط مختلف اشاره کرد. موفقیت در این روش ها، در مقابل کارایی سیستم درک و بازشناسی در انسان بسیار ابتدایی به نظر می رسد...

متن کامل

ارائه یک ساختار جدید وابسته به بافت برای بازشناسی گفتار پیوسته

این پژوهش، کوششی است برای ارائه یک ساختار وابسته به بافت برای بازشناسی گفتار پیوسته. مدل سازی مستقل از بافت، اثر واج های پیرامون را بر تلفظ هر واج، نادیده می گیرد و به همین دلیل، برای مدل سازی هر واج، همه نمونه های آموزشی مربوط به آن واج را در نظر می گیرد. در نظر گرفتن اثر بافت در مدل سازی، می تواند خطای بازشناسی را تا حد زیادی کاهش دهد. این پایان نامه با در نظر گرفتن واحد آوایی سه واجی، واج ها...

15 صفحه اول

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


عنوان ژورنال

دوره 13  شماره 4

صفحات  93- 108

تاریخ انتشار 2017-03

با دنبال کردن یک ژورنال هنگامی که شماره جدید این ژورنال منتشر می شود به شما از طریق ایمیل اطلاع داده می شود.

کلمات کلیدی

کلمات کلیدی برای این مقاله ارائه نشده است

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023